LL
r/LocalLLaMA • 27일 전
IMP 8
Llama.cpp, MTP(다중 토큰 예측) 베타 지원 공개
로컬 AI 추론 엔진인 Llama.cpp에 여러 개의 토큰을 동시에 예측하여 처리 속도를 비약적으로 높이는 MTP(다중 토큰 예측) 기능이 베타로 추가되었습니다. 개발자는 기존 GGUF 모델 파일 하나만으로 MTP 모델을 자동으로 불러와 별도의 추가 배포 없이도 추론 속도를 2배 이상 크게 향상시킬 수 있습니다. 이는 로컬 환경에서 구동되는 오픈소스 대형 언어 모델(LLM)의 실질적인 응답 성능을 개선하는 중요한 이정표입니다.
Llama.cpp 추론 속도 최적화 MTP(다중 토큰 예측)